Retrieval Augmentation
End-to-End Training of Multi-Document Reader and Retriever for Open-Domain Question Answering
マルチドキュメントOpenQAモデルをReaderとRetrieverを用いて、End-to-Endで学習するための新しい学習アルゴリズム
AtlasとかORQAのあれや
Masked Language Modelingなどを行う際、コーパスの中から該当箇所を抽出するRetrieverを同時に学習
抽出した参照文章と入力文を組み合わせてMLMを行う
解釈性もいいしパラメータ効率も良い
どうやって学習させるかが難しい
最近
PCL-Baidu WenxinはGPT-3スタイルのモデルとナレッジモデルを組みあわす
DeepMindのRETROはわずか70億個のパラメータを持つ言語mドエルでRetrieverと組み合わして、25倍のサイズの他のモデルと同等のパフォーマンス
OpenAIのWebGPTは参照コーパスを動的にインターネットから検索して抽出
効率的にベクトルの近傍探索ができることは検索やRetrievalにおいて必要不可欠
NeurlPS2021でコンペがあった
Billion-Scale Approximate Nearest neighbor Search Challenge
10億の参照データ
SPANN: Highly-efficient Billion-sclae Approximate Nearest neighborhood Search
大規模言語モデルにRetriever
ChatGPT APIで社内データについて回答するSlack BotとWebアプリを作った
LLM活用促進に向けたPlatform Engineeringからのアプローチ
【GPTIndex】パワポを読み込んだChatbotを作ろう!
外部データをRetrievalしてLLM活用する上での課題と対策案